Un corpus anotado de 100.000.000 de palabras del español histórico y moderno

نویسنده

  • Mark Davies
چکیده

The first annotated corpus of historical and modern Spanish – the 100,000,000 word Corpus del Español – is now online at http://www.corpusdelespanol.org. Unlike other corpora of historical Spanish, the “Corpus del Español” allows searches by 35 grammatical categories, 20,000 lemmata, and 30,000 groups of synonyms and antonyms, in addition to searches by etymology, frequency, and by user-defined semantic and syntactic categories. All of this allows searches as complex as “pronominal direct object + all forms of any synonym of querer + infinitive, which occurs in the 1900s but not in the 1700s or 1800s”. It is also possible to easily produce complete lists of collocations. The flexibility and power of the corpus (as well as the speed – 2-3 seconds for nearly all searches) are due to the innovative architecture of the corpus – several relational databases that are linked together and which contain annotation for the 45,000,000 distinct n-grams in the corpus.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Corpus morfológicamente representativo: preparación de datos y compilación para el español

Resumen. El problema de compilación automática de los corpus es uno de los problemas importantes de lingüística computacional. En los corpus tradicionales algunas palabras tienen demasiada ocurrencia y algunas tienen poca o ninguna ocurrencia según la ley de distribución de palabras de acuerdo a su rango: la ley de Zipf. En el trabajo proponemos el concepto del corpus representativo morfológica...

متن کامل

Reconocimiento de Voz en Español Mediante Sílabas

ctualmente, el uso de los fonemas tiene implícitas varias dificultades, debido a que la identificación de las fronteras entre ellos por lo regular es difícil de encontrar en representaciones acústicas de voz. El presente trabajo plantea una alternativa a la forma en la que el reconocimiento de voz se ha estado implementando desde hace tiempo, analizando la forma en la cual el paradigma de la sí...

متن کامل

[The logic in scientific investigation].

Se considera como un rasgo esencial de las ciencias médicas, el planteamiento de preguntas específicas a la naturaleza por medio de experimentos, El interés actual no es tanto el de determinar el principio fundamental subyacente que vincula a los diferentes fenómenos, cuanto las regularidades en los detalles. Así, los dominios de la biología se abordan a partir no de leyes generales, sino de pr...

متن کامل

Análisis sobre el idioma español en México, con base en la frecuencia de palabras azules, rojas, obscenas y vulgares en Twitter

Resumen. En este artículo se presenta una comparativa entre estados de la República Mexicana de la frecuencia de palabras azules, rojas, obscenas y vulgares que escriben usuarios de la red social de microblogging Twitter. Se presentan gráficas de los resultados obtenidos. El objetivo es mostrar en mapas del comportamiento de la frecuencia de palabras por cada estado y clasificados por el tipo d...

متن کامل

Reagrupamiento en familias y lexematización automática independientes del idioma

Este art́ıculo presenta un sistema basado en métodos de regrupamiento no supervisado que detecta algoŕıtmicamente las ráıces o lexemas de familias morfológicas. La idea principal es la constitución de familias morfológicas a través de reagrupamientos iterativos. Los criterios de este reagrupamiento se basan en la similitud gráfica de las palabras, en su representación vectorial y en la correcta ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 29  شماره 

صفحات  -

تاریخ انتشار 2002